大型语言模型(LLMS)具有令人印象深刻的能力,但其高计算成本构成了挑战。模型合并提供了一种具有成本效益的替代方案,但现有的方法不受参数之间的干扰,导致性能退化。在这项工作中,我们提出了o ptimal b降雨i(obim),这是一种新型方法,旨在构成构成模型内模型和模型间互动。OBIM由两个关键组成组成:(1)显着度测量机制,该机制根据由个体体重造成的损耗变化评估参数重要性,从而通过仅保留高效能参数来减少模型内部干扰。(2)相互排斥的迭代合并框架工作,该工作使用二进制掩码逐步整合模型,以避免直接的体系平均,从而减轻模型间干扰。我们通过对监督的微调(SFT)模型和后注册的检查点进行实验来验证OBIM。结果表明,OBIM显着超过现有的合并技术。总的来说,OBIM提供了一种有效且实用的效果,以增强LLM合并。接受本文后,我们将公开发布我们的代码。
主要关键词
![arxiv:2502.12217v1 [cs.lg] 2025年2月17日PDF文件第1页](/bimg/b/b954cf6216f375ae473d18191f04838105d6b3ef.webp)
![arxiv:2502.12217v1 [cs.lg] 2025年2月17日PDF文件第2页](/bimg/b/b4da88d46b2bc75caf2057cb1014779c97395c6c.webp)
![arxiv:2502.12217v1 [cs.lg] 2025年2月17日PDF文件第3页](/bimg/0/0c3c50a2526063c79e9c8bf763fd5d150843c8ae.webp)
![arxiv:2502.12217v1 [cs.lg] 2025年2月17日PDF文件第4页](/bimg/f/ff3edcc509c4f14dc794e1d75df1c24b7650559f.webp)
![arxiv:2502.12217v1 [cs.lg] 2025年2月17日PDF文件第5页](/bimg/d/d00e4a0812e60617548d3d8895d26f7a37155282.webp)
